iT邦幫忙

2023 iThome 鐵人賽

DAY 10
0
AI & Data

30天網路爬蟲學習系列 第 10

DAY10-標題文字標籤爬取練習(上)

  • 分享至 

  • xImage
  •  

HTML網頁的標題文字是使用<hn>標籤來定義標題文字,從<h1><h6>有六種不同尺寸的標題文字,<h1>最重要,依序遞減至<h6>,而h旁邊的數字愈大則代表著字型尺寸愈小。
現在,我們就來使用Web Scraper爬取<h1><h2><h3>前三個標題文字標籤。


本次練習網址為:https://fchart.github.io/test/ex2_01.html

步驟1:實際瀏覽網頁內容

https://ithelp.ithome.com.tw/upload/images/20230925/20162595So1cR6yMvD.jpg

進入瀏覽器後,請在瀏覽器按F12或是Ctrl+Shfit+I開啟開發人員工具,停駐視窗選擇在下方,如下圖:

https://ithelp.ithome.com.tw/upload/images/20230925/20162595tXUOpn6abs.jpg

選擇元素(Elements)標籤,如下圖:

https://ithelp.ithome.com.tw/upload/images/20230925/20162595eVWINWcdGu.jpg

<body>下可以依序看到<h1>~<h6>標籤,這些就是欲爬取目標資料所在的HTML標籤。


步驟2:在Web Scraper新增網站地圖專案

1.切換至開發人員工具後,點選Web Scraper標籤開啟Web Scraper,執行Create new sitemap → Create Sitemap命令新增網站地圖。
https://ithelp.ithome.com.tw/upload/images/20230925/20162595IECFXX4P88.jpg

2.在Sitemap name輸入名稱,需使用小寫英文字母和底線,
在Strat URL欄輸入起始URL網址後按Create Sitemap紐新增網站地圖。
https://ithelp.ithome.com.tw/upload/images/20230925/20162595J0Ld1wP05i.jpg


步驟3:建立網站爬取的CSS選擇器地圖

成功建立地圖專案後,就可開始新增CSS選擇器。

1.在下方Add new Selector紐新增目前 _root節點下的CSS選擇器節點。
https://ithelp.ithome.com.tw/upload/images/20230925/20162595XVkO2J7pOD.jpg

2.進入後在Id欄輸入名稱h1_tag,Type欄選擇節點類型,Text節點是用來擷取標籤的文字內容。

https://ithelp.ithome.com.tw/upload/images/20230925/2016259529yjmNszQd.jpg

3.在Web Scraper內建CSS選擇器工具可以從網頁選取文字內容後,自動取得資料的CSS字串,按Select按鈕,可移動游標選取欲選取的目標資料。

https://ithelp.ithome.com.tw/upload/images/20230925/20162595mvCBEgdMQW.jpg

4.當游標移至目標資料後,按滑鼠左鍵,表示選取此元素,同時在下方浮動工具列的前方欄未顯示取得的CSS選擇器h1,如下圖:

https://ithelp.ithome.com.tw/upload/images/20230925/20162595WqCv6tdS1X.jpg

5.選擇完成後,點選Done Selecting完成選擇。可在下方欄位填入選擇元素所取得的CSS選擇器字串,點選Element preview預覽選擇元素,如下圖:

https://ithelp.ithome.com.tw/upload/images/20230925/20162595ztYDChgxxw.jpg

6.點選Data preview可以預覽CSS選擇器擷取的資料,上方是節點名稱,下方是標籤內容。

https://ithelp.ithome.com.tw/upload/images/20230925/20162595kpTJ8R2nzj.jpg

7.按Save selector儲存選擇器節點,可以在_root跟節點下新增名為h1_tag的選擇器節點。

https://ithelp.ithome.com.tw/upload/images/20230925/20162595xlxIOacknt.jpg

重複按Add new selector依序新增h2_tag和h3_tag兩個CSS選擇器節點,建立完成後,可以在_root下看到三個Text節點的CSS選擇器,如下圖:

https://ithelp.ithome.com.tw/upload/images/20230925/20162595IFpah7xw2p.jpg


今天的分享就先到這邊啦~後續的部份我們明天再繼續說,明天見!/images/emoticon/emoticon41.gif

參考書籍資料:文科生也可以輕鬆學習網路爬蟲
資料爬取練習來源同書籍


上一篇
DAY9-安裝Web Scraper擴充功能
下一篇
DAY11-標題文字標籤爬取練習(下)
系列文
30天網路爬蟲學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言